Skip to main content

2.4 Datasett med regelmessige målinger over tid - paneldata

For å kunne foreta avanserte regresjonsanalyser i form av paneldataanalyse, må data organiseres på en annen måte enn ved vanlige regresjonsanalyser. Paneldata er datasett der hver enhet har oppgitt verdier for samtlige variabler målt over et gitt antall måletidspunkt. Dette har den fordelen at en kan ta med tidskomponenten i analyser, og at en får mye større datagrunnlag og gjerne analyser av en bedre kvalitet.

Det finnes et stort batteri av teknikker for paneldataanalyse, skillet går på hvilke antakelser som gjøres om variablenes variasjon over tid. Vanlige varianter som brukes er "fixed effect"- og "random effect"-analyser. Denne analyseformen vil bli gjennomgått i kapittel 5.9.

Det er to alternative måter å lage paneldata på:

  1. Ved bruk av en enkelt import-panel-kommando

  2. Gjennom å konvertere et eksisterende tverrsnittsdatasett til panel-/long-format ved bruk av kommandoen reshape-to-panel


Alternativ 1: import-panel

Kommandoen import-panel brukes i et tomt datasett. Som input til kommandoen lister man navnet på alle variablene man trenger (separert med mellomrom), etterfulgt av en liste med måledatoer. Alle variablene blir da importert inn i ditt datasett, med repeterte målinger i tråd med måledatoene du har angitt.

Syntaks:

create-dataset <datasett>

import-panel <variabelliste> <måledatoliste>


Eksempel: Datamatrise ved bruk av import-panel (3 variabler, 3 måletidspunkt)

IDTidVariabel 1Variabel 2Variabel 3
1234562000-01-0112000000301
1234562001-01-0112100000301
1234562002-01-0122150001201
1357912000-01-0123050111101
1357912001-01-0123010001101
1357912002-01-0132990000301
1470362000-01-0111500002030
1470362001-01-0111590002030
1470362002-01-0131990000301

Eksempel: Lage populasjon, duplisere enheter inn i nytt datasett, og til slutt importere paneldata for den gitte populasjonen (= bosatte i Oslo per 1/1 2010 i alderen 18-39 år)

 
require no.ssb.fdb:44 as db
 
create-dataset populasjon
import db/BOSATTEFDT_BOSTED 2010-01-01 as bosted
import db/BEFOLKNING_FOEDSELS_AAR_MND as faarmnd
generate alder = 2010 - int(faarmnd/100)               
keep if alder >= 18 & alder < 40 & bosted == '0301'
 
clone-units populasjon paneldata
 
use paneldata                 
import-panel db/INNTEKT_WLONN db/SIVSTANDFDT_SIVSTAND db/BOSATTEFDT_BOSTED 2011-12-31 2012-12-31 2013-12-31 2014-12-31
 

Merk:

  • For at dette alternativet skal fungere, må alle variablene ha gyldige måletidspunkt for alle datoene du spesifiserer, noe som kan være en utfordring dersom du importerer variabler med tverrsnitt-temporalitet (variabler som bare måles på faste datoer).

  • Paneldatasett blir fort veldig store ettersom alle enheter/individer i datasettet måles T ganger, der T står for antall målinger. Dette gjelder særlig om en importerer mange variabler i tillegg å benytte mange måletidspunkter i import-panel-uttrykket.

  • En god praksis når man benytter import-panel er å først lage en populasjon av passende størrelse, så duplisere denne vha. kommandoen clone-units, og til slutt importere paneldata inn i det tomme datasettet med den dupliserte populasjonen.


Alternativ 2: reshape-to-panel

Dette alternativet krever at du først oppretter et standard (wide-format) datasett ved hjelp av import-kommandoer, og benytter et felles suffiks for alle variablene som skal konverteres til long-format. Suffiksene har som funksjon å peke til måletidspunkt, f.eks. årstall eller liknende (må bestå av tall). Variabler du ikke benytter suffiks på vil behandles som faste opplysninger der verdien blir repetert over alle måletidspunktene nedover i paneldatasettet.

Dette er den mest fleksible løsningen og som vi anbefaler å bruke. Se kapittel 2.9.1 for en gjennomgang av denne kommandoen/metoden.

Eksempel på panel-transformasjon ved bruk av reshape-to-panel:


\rhd Eksempel: Restrukturere datasett fra wide- til long-format


OBS!
  • Det er ikke mulig å importere nye variabler inn i et eksisterende paneldatasett.

  • Det er imidlertid mulig å koble på variabler som inneholder faste opplysninger (kjønn, fødselsdato, fødeland etc) fra et annet datasett vha. kommandoen merge. Øvrige tverrsnittsdata eller forløpsdata kan ikke importeres inn i/kobles sammen med paneldata.